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摘要 : [目的 /意义 ] 准确 把 握 社 交 网 络 用 户 兴趣 倾向 ,对 用 户 进 行 分 类 并 形成 高 聚合 的 用 户 群 ,对 研究 社 
交 网 络 信息 生态 以 及 信息 推荐 有 重大 意义 。[ 方法/ 过程] 通过 构造 基于 多 维度 的 用 户 属性 描述 层次 模型 ,根据 
模型 数据 需求 从 新 浪 微 博 抓 取 用 户 样本 数据 ,对 相关 用 户 背景 信息 、 用 户 博文 信息 以 及 用 户 行为 信息 的 多 维度 
属性 下 三 阶 变量 进行 量化 ,构造 用 户 向 量 表 达 式 ,比较 单一 维度 与 多 维度 下 的 用 户 分 类 效果 ,进一步 给 属性 赋 
予 不 同 的 权重 值 进行 加 权 分 析 , 在 取得 最 优 聚 类 效果 后 进行 方差 分 析 , 对 模型 进行 改进 。[ 结果 /结论 ] 基于 多 
维度 属性 加 权 后 的 用 户 聚 类 效果 明显 高 于 单一 维度 及 多 维度 非 加 权 条 件 下 的 用 户 聚 类 , 且 用 户 博文 内 容 维 度 


对 于 提高 用 户 聚 类 效果 的 有 效 性 最 大 。 
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近年 来 ,搭载 互联 网 技术 迅速 嘱 起 的 社交 媒体 不 
断交 及 ,传统 社交 模式 被 打破 。 搭 载 互 联网 技术 的 社 
天 网 络 比 传统 社交 网 络 更 为 复杂 ,也 存在 更 多 的 可 研 
究 空 间 , 对 其 进行 更 为 深入 的 研究 不 仅 能 促进 对 社会 
网 颖 的 相关 研究 ,更 能 为 社交 媒体 进一步 发 展 提供 指 
EA 

中 国 互联 网 络 信息 中 心 (CNNIC) 发 布 的 第 41 次 
《证 国 互 联网 络 发 展 状况 统计 报告 》 数 据 显 示 , 截 至 
20[D 年 12 月 ,中 国 网 民 规 模 达 到 7.72 亿 , 互 联网 普及 
率 为 55.8% ;手机 网 民 规 模 达 7.53 亿 , 占 比 达 97.5% ， 
移动 互联 网 已 渗透 到 人 们 生活 的 方方面面 。 而 微 博 作 
为 社交 媒体 , 2017 年 用 户 使 用 率 持续 增长 ,达到 
40.9% .2017 年 新 浪 Q3 微 博 财 报 数据 显示 ,截至 2017 
FE 9 月 ,新 浪 微 博 月 活跃 用 户 共 3.76 亿 , 与 2016 年 同 
期 相 比 增长 27% ,其 中 移动 端 占 比 达 92% ; 日 活跃 用 
户 达 到 1.65 亿 , 较 去 年 同期 增长 25% 。 显 然 , 微 博 在 
社交 媒体 领域 占据 主导 地 位 ,拥有 较 大 影响 力 。 在 微 
博 中 ,用 户 可 以 预先 给 自己 添加 相关 标签 ,填写 好 自己 
的 相关 信息 ,如 学 校 出 身 年 月 等 ,给 出 用 户 相关 背景 
信息 ,而 且 可 以 原创 微 博 、 转 发 微 博 , 在 使 用 微 博 的 过 
程 中 也 产生 了 关注 博 主 ,转发 微 博 、 评 论 微 博 、 点 赞 微 


和 


博 等 信息 行为 痕迹 。 

这 些 信息 与 信息 行为 都 反映 着 用 户 的 兴趣 倾向 ， 
而 掌握 了 用 户 的 兴趣 倾向 即 可 在 后 期 通过 创建 对 应 的 
信息 推荐 模型 ,进一步 提高 用 户 对 微 博 的 利用 效益 ,对 
于 微 博 而 言 也 能 更 有 针对 性 地 进行 相关 信息 推送 或 相 
关 营 销 。 对 用 户 兴 趣 进行 挖 所 ,对 兴趣 相似 的 用 户 进 
行 聚 类 , 既 能 够 更 好 地 降低 社交 网 络 研究 的 复杂 度 ,又 
能 够 更 好 地 指导 个 性 化 信息 推荐 服务 的 开展 。 


2 文献 回顾 与 论文 研究 思路 


2.1 文献 回顾 

社交 媒体 兴起 于 国外 , 早 在 新 浪 微 博之 前 就 有 了 
Twitter \Ins 等 用 户 量 巨 大 的 网 络 社区 ,国外 对 于 社交 
网 络 的 研究 比 我 国 研究 要 更 早 一 些 。 而 近 些 年 随 着 社 
交 媒 体 用 户 数量 不 断 高 涨 ,国内 相关 学 者 对 社交 媒体 
言 息 传播 机 制 ,用户 分 类 、 社 区 发 现 等 相关 主题 的 研究 
不 断 增多 .不断 深入 。 用 户 分 类 是 近年 来 计算 机 学 科 
与 图 书 情报 学 科 的 一 个 研究 热点 ,计算 机 学 科 集中 于 
对 有 聚 类 算法 的 研究 以 及 改进 ,而 图 书 情 报 学 科 重 在 通 
过 用 户 聚 类 进行 信息 个 性 化 推荐 ,提高 信息 利用 率 。 
图 书 情报 领域 从 内 容 、 用 户 行为 .用 户 背 景 信息 等 单 维 
度 对 用 户 聚 类 进行 的 研究 较 多 ,但 从 多 维度 视角 进行 
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的 研究 却 很 少 。 

一 些 研究 从 用 户 行为 出 发 ,研究 社交 媒体 用 户 的 
分 类 ,主要 探讨 哪些 用 户 行为 特征 对 用 户 聚 类 有 效 性 
较 大 以 及 聚 类 算法 的 优化 等 。 如 M. C. Alarco’ n-del- 
Amo 等 根据 社交 网 站 的 用 户 使 用 频率 经验、 交互 模 
式 等 将 用 户 分 为 “introvert( 内 向 型 )” 
cator( 专业 沟通 型 )”“versatile (多 才 多 艺 型 )”“ 
(创新 型 )” 四 大 类 ,并 总 结 了 这 4 类 用 户 的 行为 特征 。 
张 琳 等 "通过 基于 反映 用 户 信息 行 为 特征 的 用 户 粉 丝 
数 . 关 注 数 . 微 博 数 ,收藏 数 4 个 特征 变量 对 微 博 用 户 
进行 聚 类 分 析 ,并 分 析 每 个 类 别 的 特征 及 影响 力 。 

一 些 学 者 从 内 容 维度 出 发 ,建立 用 户 与 内 容 的 信 
息 关 联 , 从 而 对 用 户 进行 分 类 ,如 J. Hannon A 通过 
施用 户 之 间 基 于 内 容 的 相关 性 ,分 析 近 据 用 户 之 问 
兴起 的 相似 性 ,将 相似 度 大 用 户 的 进行 聚 类 进而 对 不 
同 关 别 ; 进行 个 性 化 信息 推荐 。D.M. Blei 等 所 研究 
L 葬 模型 ,对 用 户 所 发 表 的 信息 内 容 进 行 主题 提取 ,以 
类 王 构 进行 建 模 ,形成 主题 文档 ,每 篇 文档 的 主题 以 概 
束 的 形式 给 出 并 进行 似 然 估 计 , 解 得 用 户 文档 相似 度 ， 
et 
题 聚 类 或 文本 聚 类 ,从 而 对 用 户 进行 聚 类 。L. J. Hong 
侍 罗 利用 两 个 主题 全 并 使 用 LAD 模型 的 方法 构建 了 
-全 基 于 内 容 的 用 户 到 类 新 模型 。M，Efonia 设计 了 
一 笨 从 多 个 角度 来 分 析 微 博 内 容 的 方法 ,为 用 户 信息 
进 疗 建 模 ,基于 内 容 维度 的 用 户 聚 类 关注 用 户 所 表达 
或 者 感 兴趣 的 内 容 在 文本 上 的 相似 度 ,将 这 种 文本 相 
仆 度 作为 用 户 相似 度 , 主 要 关注 点 是 如 何 建 模 来 更 准 
确 邮 让 内 容 与 用 户 之 间 形 成 映射 。 

除了 以 上 两 个 维度 ,也 有 学 者 从 用 户 背 景 信息 对 
用 户 兴趣 行为 表现 的 影响 进行 了 分 析 , 如 徐 志 明 等 ” 
在 用 户 相似 性 度量 中 考虑 到 了 用 户 背 景 信息 对 用 户 行 
为 的 影响 ,其 实证 结果 表明 ,用 户 背景 信息 对 于 用 户 相 
似 性 度量 具有 较 大 影响 力 。 而 基于 用 户 行为 或 者 信息 
需求 两 个 维度 进行 用 户 聚 类 分 析 的 研究 中 ,常常 忽视 
背景 信息 对 用 户 聚 类 分 析 的 影响 。 
2.2 ”本文 研究 思路 设计 

近 几 年 关于 社区 用 户 聚 类 分 析 的 研究 大 多 基于 用 
户 发 布 的 信息 内 容 或 者 用 户 行为 单 维度 号 。 但 通过 文 
献 回顾 并 结合 真实 情况 分 析 发 现 ,用 户 兴 趣 影 响 因素 
往往 是 多 方面 的 , 既 与 用 户 背景 信息 .用户 博文 内 容 有 
关 , 也 与 用 户 信息 行为 相关 ,在 对 用 户 进行 聚 类 的 过 程 
中 ,应 当 同时 考虑 到 这 3 个 维度 对 用 户 兴趣 表达 的 重 
要 性 中 。 本 文 的 研究 思路 如 图 1 所 示 , 试 图 将 用 户 背 
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景 信息 ,用户 信息 行为 ,用户 博 文 内 容 3 个 维度 都 考虑 
到 ,通过 收集 相关 数据 ,处 理 数据 ,得 到 单 维度 用 户 最 
优 聚 类 .多 维度 用 户 最 优 聚 类 和 加 权 用 户 最 优 聚 类 ,对 
绢 类 效果 进行 对 比分 析 。 具 体 聚 类 方式 是 :首先 对 这 
3 个 维度 属性 进行 细 分 ,得 到 影响 这 3 个 维度 属性 的 
二 阶 变量 ,从 而 构造 出 一 个 多 维度 用 户 属 性 描述 模型 ; 
其 次 ,根据 该 模型 获取 用 户 相关 维度 的 数据 ,并 进行 数 
据 处 理 , 得 到 用 户 向 量 , 采 用 向 量 相 似 性 度量 用 户 间 的 
相似 度 , 设 定 靖 值 ,将 基于 兴趣 特征 的 用 户 相似 度 大 于 
设 定 值 的 用 户 分 为 一 类 ,而 这 个 相似 度 是 与 用 户 背景 
信息 ,用户 行 为 .用户 博文 内 容 均 相 关 的 ;再 次 ,由 于 这 
3 个 维度 对 于 用 户 兴 趣 表 达 的 重要 性 不 一 定 是 相等 
的 ,再 根据 其 对 用 户 描 述 模型 影响 强度 需要 进行 加 权 
分 析 ,探求 哪 种 加 权 条 件 下 的 用 户 聚 类 效果 最 好 ;最 
后 ,通过 方差 分 析 确 定 二 阶 变 量 中 哪些 因素 对 用 户 描 
述 影响 较 小 ,适当 地 将 其 人 蚀 除 ,修正 用 户 描 述 模 型 ,从 
而 取得 更 好 的 聚 类 效果 。 而 如 何 充分 利用 用 户 背 景 信 
息 ,用户 博 文 信息 及 用 户 信息 行为 进行 科学 分 析 , 如 何 
对 这 些 信息 进行 定量 化 处 理 , 如 何 进行 权重 分 配 从 而 
取得 最 优 聚 类 效果 ,实现 对 用 户 的 精准 定位 ,进行 兴趣 
挖掘 、 信 息 推 荐 与 精准 运营 ,是 本 文 着 重 考虑 的 。 


户 聚 类 可 多 维度 用 户 
视 化 分 析 描述 模型 改进 


理论 学 习 与 多 维度 用 户 描 
实践 调研 述 模型 构建 与 处 理 


1. 用 户 背景 1. 数据 需求 1. 单 维度 
信息 维度 分 析 户 这 类 

2. 用 户 行为 2. 数据 抓 取 | | 2. 多 维度 
信息 维度 3. 数 据 清洗 | | 户 聚 类 

3. 用 户 博文 | |4 数据 抓 取 | | 3. 加 权 多 维 
内 容 维度 度 用 户 育 类 


1 研究 思路 
通过 参考 相关 文献 [10 -11] ,本 文 提出 了 基于 用 
户 背 景 信 息 .博文 信息 内 容 .用 户 行为 信息 3 个 维度 的 
日 户 描 述 模 型 ,给 出 的 基于 多 维度 用 户 属性 描述 模型 
如 图 2 所 示 : 


总 属性 me a 0 | 


Sr 


一 阶 属性 户 背 景 信息 微 博 信息 内 容 户 行为 

二 阶 属性 E | ] 
性 别 标签 户 发 博 行为 
地 区 简介 用 户 关注 行为 
微 博 认证 发 博信 息 户 转发 行为 
职业 信息 点 网 博文 信息 户 点 先行 为 
教育 信息 


图 2 微 博 用 户 多 维度 属性 描述 模型 
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3 ”数据 获取 与 处 理 


3.1 微 博 数据 抓 取 
对 微 博 用 户 进行 聚 类 分 析 首 先 应 该 确定 哪些 特征 
变量 能 够 较 好 地 反映 用 户 间 的 差别 ,以 此 作为 分 类 基 
础 ,以 及 确定 这 些 特征 如 何 进 行 量化 ” 。 微 博 用 户 原 
始 特征 属性 包括 粉丝 数 ,关注 数 . 互 粉 数 ` 个 人 描述 , 收 
藏 数 . 认 证 情况 性别. 注册 时 间 、 转 发 数 . 话 题 数 、 含 
URL 数 、 首 条 微 博 发 布 日 平台 数 等 。 很 多 相关 研究 在 
进行 数据 获取 的 时 候 缺 少 目标 导向 ,所 获取 的 数据 有 
些 对 于 后 续 研究 意义 不 大 ,但 也 了 予以 保留 ,导致 了 极 大 
的 数据 宛 余 。 本 文 针 对 前 文 给 出 的 微 博 用 户 多 维度 属 
性 模型 ( 见 图 2) ,对 底层 分 属性 的 特征 变量 进行 细 分 ， 
在 借鉴 前 人 相关 研究 的 基础 上 ,得 到 二 阶 变量 数据 需 
求 红 I 表 1 所 示 : 
表 1 微 博 用 户 二 阶 属性 数据 需求 
有 户 名 (作为 节点 标识 ,为 提高 数据 处 理 效率 ,对 用 户 进 
行 编码 存储 
息 ”U1 用 户 性 别 (采用 布尔 型 数据 ,1 代表 男性 ,0 代表 女性 ) 
U2 微 博 认 证 (采取 布尔 型 数据 ,1 代表 已 认证 ,0 代表 未 认 
证 ) 
U3 地 区 (采用 布尔 型 数据 ,1 代表 发 达 城 市 ,0 代表 不 发 达 
城市 ) 
U4 教育 信息 (采用 布尔 型 数据 ,1 代表 有 教育 信息 ,0 代表 
无 教育 信息 ) 
U5 职业 信息 (采用 布尔 型 数据 ,1 代表 有 职业 信息 ,0 代表 
无 职业 信息 ) 
容 I1 标签 (提取 关键 字 ) 
DZ 简介 (提取 关键 字 ) 
13 所 有 博文 内 容 ( 分 词 进行 词 频 统 计 
9 14 点 赞 博文 内 容 ( 分 词 进行 词 频 统 计 
用 户 行为 信息 发 博 Al 微 博 数 (采用 布尔 型 数据 ,1 代表 高 于 平均 值 ,0 
(action ) 代表 低 于 平均 值 ) 
关注 ”A2 关注 数 (采用 布尔 型 数据 ,1 代表 高 于 平均 值 ,0 


wa 


— 


A3 粉丝 数 ( 采 用 布尔 型 数据 ,1 代表 高 于 平均 值 ,0 


转发 ”A4 转发 博文 数 (采用 布尔 型 数据 ,1 代表 高 于 平均 
值 ,0 代表 低 于 平均 值 ) 

点 赞 ”A5 点 赞 博文 数 (采用 布尔 型 数据 ,1 代表 高 于 平均 
值 ,0 代表 低 于 平均 值 ) 


注 : 表 中 括号 内 容 为 数据 处 理 方式 ,将 在 下 文 数据 处 理 章节 详细 
阐释 


本 次 研究 所 用 到 的 相关 数据 均 使 用 数据 采集 软件 
八 爪 鱼 采 集 絮 进行 采集 , 微 博 首页 将 用 户 兴 趣 分 为 时 
尚 旅游 .搞笑 情感、 科学、 动漫 .美食 .体育 .电影 、 电 
视 剧 .星座 ,音乐 .健身 .军事 ,数码 历史、 摄影 、 萌 宠 、 
游戏 .美女 等 20 个 类 别 ,为 了 形成 实验 对 照 组 ,这 20 
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个 类 别 暂 时 予以 保留 ,基于 这 20 个 类 别 ,在 微 博 找 人 
端口 进行 相应 的 类 别 输入 ,依照 表 1 对 每 个 类 别 各 抓 
取 120 个 用 户 的 相关 数据 (按照 排序 依次 选取 ) ,经 过 
筛选 得 到 最 终 的 用 户 样本 。 
3.2 数据 处 理 
3.2.1 数据 清洗 对 于 采集 到 的 20 个 类 别 各 120 个 
微 博 用 户 数据 进行 数据 清洗 , 主要 是 为 了 避免 数据 稀 
朴 性 以 及 冷 启 动 问题 对 后 续 数 据 分 析 以 及 用 户 聚 类 效 
果 产 生 不 良 影响 。 在 进行 数据 清洗 的 过 程 中 ,不 仅 需 
要 注意 将 简介 .介绍 ,标签 等 数据 项 内 容 为 NULL 值 的 
有 户 样本 数据 进行 删除 ,对 于 简介 或 者 介绍 内 容 无 实 
际 意义 的 对 应 项 (如 "工作 联系 :XXXXXXX”“ 心 若 止 
水 ”) 也 进行 了 删除 。 同 时 ,考虑 到 到 用 户主 体 为 机 构 
的 微 博 用 户 ,其 在 微 博 中 进行 的 各 种 活动 代表 机 构 
而 非 个 人 ,针对 性 较 强 ,可 人 研 性 较 弱 , 故 将 微 博 机 构 
认证 的 微 博 用 户 予 以 删除 。 而 且 由 于 之 后 要 针对 用 
户 样本 进行 各 自 最 近 的 20 条 博文 采集 并 进行 文本 分 
析 ,将 博文 数 少 于 20 的 微 博 用 户 也 进行 删除 。 在 剩 
余 的 样本 中 随机 抽取 20 * 50 的 样本 量 作 为 最 终 用 户 
样本 。 
3.2.2 ”基于 云 模型 的 文本 信息 量化 ”基于 微 博信 息 
内 容 的 用 户 分 类 通常 通过 构建 用 户 - 文本 对 照 模型 ， 
例如 LDA 模型 .三 层 贝 叶 斯 模型 ,通过 计算 结构 化 文 
本 相似 性 而 计算 用 户 间 的 相似 性 ,从 而 进行 用 户 聚 类 。 
但 是 考虑 到 文本 描述 模型 与 用 户 多 维度 属性 描述 模型 
的 不 兼容 ,在 进行 数据 处 理 的 过 程 中 ,采用 云 模型 将 定 
性 的 用 户 博文 信息 进行 定量 表示 。 
将 用 户 节点 视 为 云 模型 中 的 云 滴 , 将 原 定 的 20 个 

类 别 视 为 用 户 评分 的 20 个 评分 项 目 。 对 用 户 微 博信 

内 容 进行 处 理 , 通 过 词 袋 模型 ,忽略 掉 文 本 的 语法 、 
语序 , 仅 将 其 看 作 是 若干 个 词汇 的 集合 ,文档 中 每 个 单 
词 的 出 现 都 是 独立 的 ,使 用 分 词 工 具 还 -analayer 对 微 
博信 息 文本 进行 分 词 并 进行 词 频 统计 ,根据 词 频 对 项 
目 进 行 评分 ,得 到 用 户 评分 表 ( 样 例 见 图 3)。 用 户 名 
一 栏 中 为 目标 用 户 的 微 博 帐户 名 称 , 在 用 户 评分 表 中 
统计 目标 用 户 的 已 评分 项 目 集合 SI1 。S1 为 所 有 项 目 
组 成 的 集合 ,计算 用 户 的 为 评分 项 目 S2 =S-S1,S 是 所 
有 项 目 组 成 的 集合 。 根 据 用 户 评 分 表 可 以 得 到 用 户 - 
项 目 矩 阵 ,根据 矩阵 得 到 用 户 i 与 用 户 j 之 间 的 相似 度 
Sim(i,j)。 这 是 基于 用 户 博文 信息 内 容 单 维度 的 数据 
处 理 办 法 ,在 考虑 用 户 背 景 信 息 、 用 户 博文 信息 、 用 户 
行为 这 3 个 维度 同时 作用 的 情况 下 ,该 用 户 -项 目的 
和 矩阵 移植 性 强 ,对 于 用 户 聚 类 而 言 ,只 需要 将 用 户 行为 
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与 用 户 背景 信息 的 二 阶 变量 作为 项 目 评分 表 的 新 增 项 。 样 的 操作 进行 用 户 相似 度 的 计算 ,从 而 进行 后 续 的 聚 

目 , 即 可 简化 操作 ,直接 构建 用 户 -项 目 矩 阵 ,通过 同 ”类 操作 。 
用 户 名 ”| 时 尚 | 旅游 | 搞笑 | 情感 | 科学 | 动漫 | 美食 | 体育 | 电影 | 电视 剧 | 星座 | 音乐 | 健身 | 军事 | 数码 | 历史 | 摄影 | 萌 宠 | 游戏 | 美女 
Seoul 韩 流 1 0 [0 0 0 0 1 0 1 出 0 0 0 0 0 0 0 0 0 0 
TvB 剧 评 社 0 0 0 0 0 0 1 1 0 1 0 0 0 1 0 0 0 0 0 0 
william_ 彭 0 0 0 0 上 0 1 1 0 0 0 0 0 0 0 0 0 业 
爆料 王 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 
本 仙女 爱 追 和 0 马 0 0 0 0 于 1 0 业 0 1 0 0 0 0 0 0 0 0 
穿帮 看 0 0 0 0 0 0 0 0 2 3 0 0 0 0 0 0 0 0 0 0 
大 家 字幕 组 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 3 0 0 0 
电视 剧 透 社 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 
电视 剧 周刊 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 i 0 
电视 圈 大 哥 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 
毒 天 八卦 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 
将 少 皇 0 0 0 0 0 0 0 0 4 2 0 0 0 0 0 0 0 0 0 0 
凤凰 天 使 剧 让 [0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 [eo 0 
港剧 描 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 
高 希 希 0 0 0 0 0 0 0 0 1 3 0 0 0 0 0 0 0 0 0 
关 晓 彤 0 0 0 0 0 0 0 0 2 3 0 1 中 0 0 0 1 0 0 0 
好 剧 台 词 业 0 1 0 0 1 0 0 | 0 0 1 0 0 0 0 0 0 0 

图 3 基于 博文 信息 内 容 的 用 户 评分 表 ( 部 分 截图 ) 
Dm 
3.233 ”数据 标准 化 ”数据 标准 化 的 好 处 就 在 于 可 以 ”的 初始 中 心 ,生成 的 聚 类 是 确定 性 的 ,结果 仅 取决 于 聚 


甸 癌 情 度 ,对 于 基于 距离 计算 的 用 户 相似 度 测量 算法 
效 洪 显著 ,标准 化 可 以 让 各 个 特征 变量 对 结果 作出 的 

相同 。 在 多 维度 描述 模型 中 ,由 于 各 个 维度 的 性 
网 畏 亲 通 放 具有 不 同 的 量 纲 和 数量 级, 当 从 维 度 间 的 
an 
壮 但 较 高 的 指标 在 综合 分 析 中 的 作用 ,相对 削弱 数值 

3 较 低 指标 的 作用 。 因 此 ,为 了 保证 结果 的 可 靠 性 ， 
震 广 对 原始 指标 数据 进行 标准 化 处 理 。 本 研究 首先 考 
虑 基于 用 户 行为 和 基于 用 户 背景 信息 的 数据 二 值 化 ， 
局 相处 理 办 法 已 在 表 1 中 给 出 。 


4 数据 分 析 与 讨论 


4 二 单 维度 用 户 聚 类 可 视 化 分 析 
一 本 次 聚 类 使 用 Tableau 10.5 软件 ,分 别 对 用 户 行 


为 数据 .用户 自 身 信息 数据 、 博 文 内 容 数据 进行 分 析 ， 
再 基于 这 3 个 维度 同时 对 这 3 项 数据 进行 非 加 权 分 
析 ,得 到 不 同 的 聚 类 结果 ,对 这 4 种 情况 下 的 聚 类 效果 
进行 纵向 比 对 分 析 ,并且 将 这 4 种 聚 类 效果 与 原本 的 
20 个 类 别 进行 横向 比 对 分 析 , 为 了 方便 横向 比 对 ,在 
进行 聚 类 可 视 化 的 过 程 中 选择 关键 词 即 用 户 原本 所 属 
类 别 作 为 模 轴 , 聚 类 后 的 群集 作为 纵 轴 "" 。 

Tableau 10.5 使 用 均值 算法 进行 群集 。 对 于 给 
定 的 聚 类 簇 数 ,算法 将 数据 划分 为 k 个 类 。 每 个 类 
都 有 一 个 中 心 ( 质 心 ) , 它 是 该 类 中 所 有 点 的 平均 值 。 
通过 下 均值 迭代 过 程 来 查找 中 心 ,该 过 程 可 最 大 程度 
地 缩短 类 中 各 个 点 与 类 中 心 之 间 的 距离 。Tableau 将 
Lloyd 算法 与 平方 欧 氏 距离 结合 使 用 来 计算 每 个 k 的 
k 均值 聚 类 。 与 拆 分 过 程 结 合 使 用 来 确定 每 个 k >1 


类 复数 。 
使 用 Calinski-Harabasz 标准 来 评估 聚 类 质量 从 而 
确定 最 佳 聚 类 复数 。Calinski Harabasz 标准 的 定义 如 


式 (1) 所 示 : 
SS, (N-: 
So 式 (1) 
其 中 SSs 是 类 间 总 体 方差 ,SS， 是 类 内 总 体 方差 ， 


k 是 聚 类 簇 数 ,N 是 观察 次 数 。 此 比率 的 值 越 大 ,类 的 
内 聚 性 越 高 (群集 内 方差 小 ) 并 且 单 个 类 的 离散 性 /分 
离 性 也 越 高 (类 间 方 差 大 ) 。 在 确定 最 优 聚 类 复数 的 
时 候 将 选择 与 第 一 个 局 部 Calinski-Harabasz 指数 最 大 
值 对 应 的 复数 。 

首先 对 用 户 行为 数据 进行 聚 类 分 析 。 当 类 的 个 数 
为 5 时 ,取得 最 优 的 聚 类 效果 , 聚 类 可 视 化 结果 见 图 4。 
在 用 户 行 为 单 维 度 聚 类 中 ,关键 词 为 情感 的 用 户 单独 
被 分 为 一 类 ,类 间 属 性 表现 为 关注 数 多 、 微 博 数 多 \ 点 
赞 数 多 、 粉 丝 数 少 ,转发 数 少 ;关键 词 为 “电视 剧 ”“ 电 
影 "“ 动 漫 "“ 星 座 ”“ 游 戏 ”“ 音 乐 ”" 的 用 户 被 分 成 一 类 ， 
类 间 属 性 表现 为 关注 数 少 发 博 数 少 、 点 赞 数 中 等 . 粉 
缘 数 中 等 转发 数 中 等 ;关键 词 为 “动漫 "“ 旅 游 ”“ 时 
尚 ” 的 用 户 被 分 为 一 类 ,类 间 属 性 表现 为 关注 数 中 等 、 
微 博 数 偏 少 \ 点 赞 数 少 ,粉丝 数 多 .转发 数 中 等 ;关键 词 
为 “健身 “军事 “科学 “历史 “ 萌 宠 ”体育 ”的 用 户 
被 分 为 一 类 ,类 间 属 性 表现 为 关注 数 中 等 、 发 博 数 中 
等 ,点 赞 数 多 、 粉 丝 数 中 等 、 转 发 数 多 ;关键 词 为 “ 美 
女 ”“ 美 食 ”“ “数码 ”的 用 户 被 分 为 一 类 ,类 间 属 
性 表现 为 关注 数 较 多 ` 发 博 数 中 等 点 赞 数 偏 少 、 粉 丝 
数 中 等 .转发 数 中 等 。 


是 4， 
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该 维度 下 ,原本 的 20 类 用 户 被 高 聚合 为 5 类 ,类  ” 较 小 , 仅 从 这 单一 维度 进行 用 户 聚 类 显然 是 十分 不 准 
间 的 区 别 度 较 高 ,但 是 维度 属性 对 用 户 总 属性 的 影响 。 确 的 。 
关键 词 
群集 电视 剧 电影 动漫 搞笑 ”健身 军事 科学 历史 旅游 美女 美食 萌 宠 情感 摄影， 时尚 数码 体育 星座 音乐 -游戏 


me 加 

> 国 国 国 国 故国 
群集 3 圈 [| 图 

wa TTT 加 图 

pe 本 本 故国 


图 4 基于 用 户 行为 信息 单 维度 的 最 优 用 户 聚 类 可 视 化 


基于 用 户 背景 信息 单 维度 聚 类 结果 如 图 5 所 示 ， ”为 “搞笑 ”““ 健 身 ”“ 科 学 ”““ 萌 宠 “ 摄 影 ”数码 ”“ 游 
当 状 的 个 数 为 4 时 取得 最 优 聚 类 效果 。 关 键 词 为 “ 军 。” 戏 "的 用 户 被 分 为 一 类 ,类 间 属 性 表现 为 地 区 分 布 偏向 
莫 呈 美食 “情感 “音乐 "的 用 户 被 分 为 一 类 ,类 间 属 “于 非 发 达 城 市 . 微 博 认证 用 户 占 比 中 等 .男性 用 户 占 比 
a 区 界定 不 明显 , 微 博 认 证 用 户 占 比 大 ,性 别 。 大 ,给 出 自身 教育 信息 和 职业 信息 的 用 户 占 比 均 偏 小 ; 
分 币 均 匀 .多 给 出 自身 教育 信息 与 职业 信息 ;关键 词 为 。” 关键 词 为 “美女 “时 尚 ”体育 ”的 用 户 被 分 为 一 类 ,类 
“电影 “动漫 “历史 ”旅游 “星座 ”的 用 户 。， 间 属性 表现 为 发 达 城市 用 户 占 比 大 、 征 博 认证 用 户 占 
被 区 为 一 类 ,类 间 属 性 表现 为 地 区 分 布 均匀 、 微 博 认证 。” 比 小 .女性 用 户 占 比 大 .给 出 教育 信息 的 用 户 占 比 小 ， 
用 沪 占 比 大 性 别 分 布 均匀 、 给 出 自身 教育 信息 的 用 户 ”给 出 职业 信息 的 用 户 占 比 偏 小 。 

点 友 中 等 但 给 出 自身 职业 信息 的 用 户 占 比 小 ;关键 词 
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5 基于 用 户 背 景 信 息 单 维度 的 最 优 用 户 聚 类 可 视 化 


从 聚 类 结果 不 难看 出 ,基于 用 户 背 景 信 息 单 维 度 。 强 ,更 不 愿意 给 出 自身 的 教育 信息 、 职 业 信 息 等 ,都 能 
对 用 户 进 行 分 类 有 一 定 的 借鉴 性 ,其 借鉴 性 比 基 于 用 ”从 该 维度 下 的 用 户 聚 类 结果 中 反映 出 来 ,类 间 间 距 较 
户 行为 单 维度 的 聚 类 方式 来 说 信和 度 更 高 ,例如 女性 更 ”大 ,但 基于 用 户 背 景 信 息 单一 维度 的 用 户 聚 类 的 内 聚 
关注 美女 .时尚 等 领域 ,男性 更 关注 健身 、 科 学 摄影 、 “性 不 够 强 , 仅 使 用 该 维度 对 用 户 进行 分 类 对 于 微 博 内 
数码 ,游戏 等 领域 ,发 达 城 市 的 用 户 隐私 保护 意识 更 。 容 聚 合 缺 乏 指导 性 。 
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基于 用 户 博 文 信息 单 维度 聚 类 结果 如 图 6 所 示 ， 
当 类 的 个 数 为 2 时 取得 最 优 聚 类 效果 。 关 键 词 为 搞 
笑 情感. 星座 的 用 户 被 分 为 一 类 ,类 间 属 性 表现 为 词 
频 集中 且 频 繁 出 现 于 分 属性 也 标签 .2 简介 、13 所 有 
博文 内 容 、4 点 赞 博文 内 容 这 4 项 中 ,同时 “搞笑 "“ 情 


感 “ 星 座 ” 这 三 大 关键 词 与 其 他 17 个 关键 词 共 现 频 
数 高 。 剩 下 的 关键 词 除 “搞笑 “情感 “星座 "之 外 的 
用 户 被 分 为 一 类 ,类 间 属 性 表现 为 词 频 分 散 且 关键 词 
与 4 项 分 属性 的 共 现 频数 低 , 与 搞笑 "情感 “星座 ” 
这 3 个 关键 词 的 共 现 频数 也 低 。 


关键 词 
群集 电视 剧 电影 动漫 ”搞笑 健身 军事 “科学 历史 旅游 食 ” 萌 害 ”情感 ”摄影 时 尚 数码 体育 星座 ”音乐 游戏 
群集 1 加 圈 图 
~ 
CO 
0 本 古本 本 本 本 本 本 本 国 国 本 本 国力 国 图 
三 图 6 基于 用 户 博文 信息 单 维度 的 最 优 用 户 聚 类 可 视 化 
OO 基于 用 户 博 文 信息 单 维度 下 的 用 户 聚 类 在 非 加 权 ”证 聚 类 效果 比 对 分 析 的 准确 性 ,也 是 为 了 保证 后 续 加 


ee et he 
类 的 目标 在 于 将 博文 内 容 相似 度 高 的 用 户 分 为 

,这 种 相似 度 高 低 体现 在 纵向 的 用 户 之 间 在 一 阶 
或 庙 上 所 体现 出 来 的 倾向 性 ,但 是 在 没有 对 数据 进行 
加 长 分 析 时 , 当 用 户 同时 在 多 项 二 阶 变量 上 有 取 值 时 ， 
用 县 评 分 表 中 对 各 项 评分 所 进行 的 运算 是 简单 地 累 
加 8 阐 于 用 户 向 量 来 说 ,这 样 的 运算 方式 使 得 向 量 相 人 人 
量 失真 。 在 实例 中 的 表现 为 :如 果 用 户 的 标签 . 简 
人 博文 .点 赞 博文 中 重复 出 现 与 关键 词 “搞笑 "相关 
的 词语 如 "段子 “笑话 “恶搞 "等 ,但 与 其 他 关键 词 相 
关 的 词语 较 少 出 现 , 则 在 现 有 的 评分 表 运 算 过 程 中 自 
然 给 这 种 倾向 性 自动 赋予 了 较 高 的 权 值 。 当 一 个 用 户 
在 标签 .简介 .博文 .点 赞 博文 中 出 现 了 横 跨 两 个 及 两 
个 以 上 的 关键 词 的 倾向 性 时 ,根据 现 有 的 运算 规则 ,其 
被 自动 赋予 的 权重 是 肯定 会 比 前 一 种 情况 要 低 的 ,但 
是 前 一 种 情况 只 能 说 明 该 用 户 的 博文 内 容 倾 向 于 关键 
词 “搞笑 ” ,也 就 是 说 这 样 的 用 户 可 能 只 对 “搞笑 "类 信 
息 感 兴趣 ,后 一 种 情况 中 的 用 户 可 能 既 对 “搞笑 "类 信 
息 感 兴趣 也 其 他 某 类 信息 感 兴趣 ,但 是 这 并 不 能 说 明 
该 用 户 对 于 “搞笑 "类 信息 和 其 他 某 类 的 信息 感 兴 
的 程度 不 如 前 者 。 

基于 用 户 背 景 信息 和 用 户 行为 信息 的 用 户 聚 类 所 
用 数据 源 是 高 度 标准 化 的 二 值 矩 阵 ,因此 基于 用 户 博 
文 信息 单 维度 数据 同样 需要 进行 标准 化 ,既是 为 了 保 


[ 亚 
油 
长 


权 分 析 数 据 的 可 用 性 。 

基于 用 户 博文 信息 的 标准 化 使 用 数据 分 析 软 件 
SPSS 内 置 的 Z-score 即 正 规 化 方法 ,Z-score 基于 原始 
数据 的 均值 (mean ) 和 标准 差 (standard deviation ) 进行 
数据 的 标准 化 。 将 原始 值 X 使 用 Z-score 标准 化 到 
X”。 数 据 标 准 化 后 ,基于 用 户 博 文 信息 单 维度 的 用 户 
最 优 聚 类 结果 见 图 7。 

基于 标准 化 用 户 博 文 信息 单 维度 的 用 户 聚 类 ,在 
类 的 个 数 为 6 时 ,取得 最 优 聚 类 效果 。 从 图 7 可 以 看 
出 ,在 一 定 误 差 范围 内 ,用 户 博 文 信息 中 表现 的 用 户 兴 
趣 倾向 往往 表现 为 多 个 方面 ,关键 词 为 "搞笑 “美女 ” 
“情感 ”星座 ”的 用 户 被 分 为 一 类 ,类 间 属 性 表现 为 简 
介 与 点 赞 内 容 相 似 度 高 ,标签 与 发 博 内 容 相似 度 低 。 
关键 词 为 “动漫 "“ 科 学 "“ 萌 宠 ”“ 数 码 ”“ 音 乐 “ 游 戏 ” 
的 用 户 被 分 为 一 类 ,类 间 属 性 表现 为 用 户 标签 ,点 赞 内 
容 相似 度 较 高 ,简介 ` 发 博 内 容 相似 度 低 。 关 键 词 为 电 
视 剧 和 电影 的 用 户 被 分 为 一 类 ,类 间 属 性 表现 为 简介 、 
标签 .发 博 内 容 \ 点 赞 内 容 均 偏 高 。 关 键 词 为 "旅游 ” 
“美食 “摄影 ”“ 时 尚 ”的 用 户 被 分 为 一 类 ,类 间 属 性 表 
现 为 用 户 标签 ,发 博 内 容 、 点 赞 内 容 相 似 度 高 ,简介 相 
似 度 低 。 关 键 词 为 “军事 “历史 ”的 用 户 被 分 为 一 类 ， 
类 间 属 性 表现 为 简介 相似 度 低 , 发 博 内 容 相 似 度 中 等 ， 
标签 与 点 赞 内 容 相 似 度 高 。 关 键 词 为 “健身 ”和 “ 体 
育 ” 的 用 户 被 分 为 了 一 类 ,类 间 属 性 表现 为 用 户 发 博 内 
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群集 4 | | 


群集 5 转 图 


群集 6 国 


关键 词 
群集 电视 剧 电影 动漫 摘 笑 健身 军事 科学 历史 旅游 美女 美食 萌 宠 情感 摄影 时 尚 数码 体育 星座 音乐 游戏 


图 7 ”基于 标准 化 用 户 博 文 信息 单 维度 的 用 户 最 优 聚 类 可 视 化 


容 \ 点 赞 内 容 相似 度 高 ,标签 内 容 相似 度 中 等 ,简介 内 


LO 标准 化 后 的 数据 明显 提高 了 基于 用 户 博 文 信息 
es 聚 类 # 果 的 可 借鉴 
恬 育 ,例如 ,关键 词 为 “电影 "和 “电视 剧 ” 的 用 户 被 分 
将 类 , 晶 类 间 属 性 具有 高 相似 性 ,这 反映 了 对 电视 
x 兴趣 的 用 户 往往 也 表现 出 对 电影 类 信息 的 兴 


与 关注 。 

4.2 基于 多 维度 属性 加 权 的 用 户 聚 类 可 视 化 分 析 
4.2.1 多 维度 非 加 权 用 户 聚 类 可 视 化 分 析 数据 经 
过 标准 化 处 理 后 ,得 到 基于 云 模型 的 总 用 户 评分 表 , 将 
总 用 户 评分 表 导 入 软件 Tableau 进行 用 户 聚 类 分 析 , 得 
到 最 优 用 户 聚 类 如 图 8 所 示 : 


群集 电视 剧 电影 动漫 搞笑 健身 军事 科学 历史 旅游 美女 美食 萌 宠 情感 摄影 时 尚 数码 体育 星座 音乐 游戏 
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© 群集 3 


8 基于 多 维度 的 用 户 最 优 聚 类 可 视 化 


在 类 的 个 数 为 4 时 ,得 到 了 最 优 用 户 聚 类 , 聚 类 汇 
总 诊断 得 到 组 间 平 方 值 总 和 为 9.182 1 ,组 内 平方 值 总 


仍然 不 是 很 好 ,多 维度 的 用 户 聚 类 虽然 更 全 面 地 考虑 
到 了 各 个 维度 对 于 用 户 相似 性 度量 的 影响 ,但 是 却 分 


和 为 8.219 7。 组 间 平 方 和 指标 将 每 个 类 之 间 的 间隔 
量化 成 为 每 个 类 的 中 心 与 数据 集中 心 之 间 的 平方 距离 
总 和 ,类 中 心 度量 采用 平均 值 ,通过 分 配给 类 的 数据 点 
数 进 行 加 权 得 到 。 组 间 平 方 和 值 越 大 ,类 之 间 的 间隔 
就 越 好 。 组 内 平方 和 指标 将 类 的 内 聚 性 进行 量化 , 量 
化 为 每 个 类 中 心 与 类 中 单个 标记 之 间 的 平方 距离 总 
和 ,组 内 平方 距离 总 和 越 小 ,群集 的 内 聚 性 就 越 高 。 分 
析 得 到 基于 多 维度 的 用 户 聚 类 在 最 优 情况 下 聚 类 效果 
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散 了 用 户 相似 度 在 各 个 维度 的 表现 强度 ,导致 聚 类 效 
果 不 够 好 ,组 间距 离 较 小 而 组 内 距离 较 大 ,类别 界限 不 
够 清晰 。 

4.2.2 多 维度 加 权 用 户 聚 类 可 视 化 分 析 考虑 到 3 
个 维度 在 用 户 聚 类 过 程 中 可 能 存在 不 等 贡献 ,对 模型 
中 的 每 个 维度 赋予 不 同 的 权重 ,由 于 有 3 个 维度 且 在 
之 前 缺乏 相关 权重 分 配 研究 ,在 进行 加 权 分 析 的 同时 
需要 进行 权重 分 配 试验 ,本 文采 取 常 用 的 线性 加 权 方 
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法 对 3 个 维度 进行 加 权 试 验 ,权重 分 配 如 下 所 示 : 

加 权 1:; 用 户 向 量 = (User * 0. 25 ,Content * 0.5， 
Action * 0.75) 

加 权 2: 用 户 向 量 = (User * 0. 25 ,Content * 0. 75 ， 
Action * 0.5) 

加 权 3: 用 户 向 量 = (User * 0.5,Content * 0. 25 ， 
Action * 0.75) 

加 权 4: 用 户 向 量 = (User * 0.5,Content * 0. 75 ， 
Action * 0.25) 

加 权 5:; 用 户 向 量 = (User x 0.75,Content * 0.5， 
Action * 0.25) 

加 权 6: 用 户 向 量 = (User * 0.75,Content * 0. 25 ， 
Action * 0.5) 
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SS 


: 


在 这 6 种 加 权 方 式 下 ,不同 加 权 下 的 用 户 最 优 聚 
类 诊断 数据 如 表 2 所 示 : 


类 2 


基于 多 维度 加 权 的 最 优 用 户 聚 类 效果 诊断 


加 权 加 权 1 加 权 2 加 权 3 加 权 4 加 权 5 加 权 6 


聚 类 复数 3 6 5 14 8 3 


组 间 平 方 值 总 和 5.6279 10.799 9.8483 1.6438 8.156 6.466 1 
组 内 平方 值 总 和 


15.06 5.6028 7.5535 18.5 10.132 10.936 


上 


比 对 表 2 中 6 种 加 权 方 式 下 的 最 优 用 户 聚 类 的 聚 
类 效果 ,加 权 4 下 的 用 户 聚 类 效果 最 好 , 即 当 用 户 博 文 
内 容 所 占 权重 为 1/2, 用 户 背景 信息 所 占 权重 为 1/3 ， 
用 户 行为 信息 所 占 权重 为 1/4 , 且 聚 类 复数 为 14 时 , 取 
得 最 优 聚 类 效果 ,其 聚 类 可 视 化 如 图 9 所 示 : 


< 


关键 词 
摘 笑 ”健身 ”军事 科学 历史 旅游 ”美女 美食 萌 宠 ”情感 摄影 时 尚 数码 体育 星座 


音乐 ”游戏 


ch 


9 基于 多 维度 加 权 4 的 最 优 用 户 聚 类 可 视 化 


全 


环 |j 百 


该 方法 与 基于 用 户 博 文 信息 单 维度 、 基 于 用 户 背 
息 单 维度 .基于 用 户 行为 信息 单 维 度 的 用 户 聚 类 


效果 进行 横向 比 对 ,类 间 的 特征 属性 更 明确 ,例如 在 基 


对 ,加 权 后 的 用 户 聚 类 更 符合 实际 情况 。 例 如 非 加 权 情 况 
下 ,关键 词 为 电视剧“ 电影 ”动漫 “军事 “历史 “人 情 
感 “ 动 漫 "的 用 户 被 分 为 了 一 类 ,在 加 权 条 件 下 ,分 类 有 


于 用 户 博文 信息 单 维度 的 用 户 最 优 聚 类 中 ,关键 词 为 


四 搞笑 ” “情感 ” “美女 ” sé 星座 ” 的 月 


昌 户 被 分 为 一 类 ,但 
是 在 多 维度 加 权 条 件 下 ,关键 词 为 


搞笑” [9 情感 ” 的 用 


户 被 分 为 一 类 ,但 是 关键 词 为 “美女 "的 用 户 和 关键 记 


了 较 大 幅度 的 变化 。 在 将 多 维度 进行 平等 对 待 的 情况 下 ， 
就 可 能 出 现 分 类 异化 ,可 能 用 户 博文 相似 度 较 大 的 用 户 由 
于 在 用 户 行为 和 用 户 背景 信息 两 个 维度 表现 出 来 的 相似 
度 较 低 而 被 分 散 至 多 个 类 别 , 而 使 实际 情况 中 ,基于 用 户 


为 “星座 ”的 用 户 被 单独 分 成 了 两 个 类 别 ,这 说 明了 基 


博文 内 容 ,基于 用 户 背景 信息 和 基于 用 户 行为 信息 这 3 个 


于 用 户 背 景 信息 和 基于 用 户 行为 信息 两 个 维度 的 相似 


维度 下 的 用 户 相似 性 对 于 用 户 间 总 的 相似 性 度量 做 功 是 


度 差异 给 聚 类 结果 带 来 了 影响 。 同 理 ,造成 聚 类 结 


不 同 的 ,只 有 重视 这 种 差异 


才能 得 到 更 仿真 的 用 户 相似 


与 基于 单 维度 的 用 户 聚 类 结果 


不 同 的 是 男 两 个 维度 带 


来 的 影响 。 这 种 影响 增 大 了 用 户 差异 ,使 得 聚 类 结果 
更 能 准确 地 反映 用 户 兴 趣 倾向 等 。 
与 基于 多 维度 的 非 加 权 用 户 聚 类 效果 进行 纵向 比 


性 度量 模型 和 更 符合 实际 情况 的 用 户 聚 类 结果 。 而 通过 
加 权 分 析 证 实 了 在 基于 用 户 博 文 内 容 单 维度 所 占 比重 最 
大 的 情况 下 取得 的 聚 类 效果 是 最 优 的 ,说 明 用 户 博文 内 容 
单 维度 对 用 户 相似 性 度量 的 影响 力 最 大 。 
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同时 ,与 微 博 原先 的 分 类 标准 相 比 ,一 些 原本 不 属 
于 一 个 类 别 的 用 户 被 合成 了 一 个 类 别 ,例如 关键 词 为 
“搞笑 “情感 ”的 用 户 被 分 为 了 一 类 ,这 说 明了 在 进行 
用 户 分 类 的 过 程 中 ,必须 重视 重 羡 社区 这 一 概念 ,重视 
用 户 兴 趣 间 的 交叉 ,考虑 非 线性 用 户 分 类 的 重要 性 ,而 
在 进行 后 期 的 信息 推荐 时 ,应 当 综 合 考 虑 用 户 分 类 的 
重合 性 ,对 于 有 重合 兴 趣 的 用 户 适当 推送 其 所 属 类 别 
外 的 其 他 类 别 信息 。 
4.3 模型 优化 


4.3.1 方差 分 析 方差 分 析 (ANOVA) 是 统计 模型 及 
关联 程序 的 集合 ,用 户 分 析 已 区 分 为 类 的 观察 值 内 和 


观察 值 之 间 的 差 值 , 将 每 个 变量 计算 方差 进行 分 析 , 生 
成 的 方差 分 析 表 可 用 于 确定 对 群集 最 有 效 的 变量 。 
Tableau 群集 的 相关 方差 分 析 统计 数据 包括 统计 数 
据 字 值 模型 均 方 值 与 误差 平方 和 。F 统计 数据 , 单 向 
或 者 单 因素 ANOVA 的 下 统计 数据 是 变量 所 解释 的 方 
差 玲 数 , 它 是 组 间 方差 与 总 方差 的 比率 ,F 统计 数据 越 


大 ,在 群集 之 间 就 能 更 好 地 区 分 对 应 变量 。P 值 是 指 下 
统计 数据 所 有 可 能 值 的 了 分布 的 值 大 于 变量 实际 统 
计数 据 的 概率 ,如 有 果 P 值 低 于 指定 的 显著 性 水 平 , 则 可 
以 拒绝 零 假设 (变量 的 单独 元 素 是 单个 群体 的 随机 样 
本 )。 此 下 分 布 的 自由 度 为 (K-1,N-K, 其 中 是 类 的 
个 数 ,N 是 已 建立 类 的 项 数 )。P 值 越 低 ,对 应 变量 的 
元 素 的 预期 值 在 类 之 间 的 区 别 越 大 。 
模型 均 方 值 是 组 间 平 方 和 与 模型 自由 度 的 比率 。 
组 间 平 方 和 是 对 群集 均值 之 间 差 值 的 度量 。 如 果 和 群集 
均值 彼此 很 接近 ( 因此 与 总 均值 也 很 接近 ) , 则 值 将 很 
小 。 横 型 的 自由 度 为 k-1 ,其 中 k 为 群集 数 。 误 差 平 
方 和 是 组 内 平均 和 与 误差 自由 度 的 比率 。 组 内 平方 和 
测量 每 个 群集 内 的 观察 值 之 间 的 差 值 。 误 差 的 自由 度 
为 N 环 ,其 中 N 是 已 建立 群集 的 总 观察 值 数 ( 行 数 ) ,k 
为 群集 数 。 可 以 将 误差 平方 和 看 作 是 总 体 均 方 误差 ， 
并 假定 每 个 群集 中 心 都 表示 每 个 群集 的 “真实 值 ”。 
在 最 优 加 权 条 件 下 ,模型 的 方差 分 析 结 果 如 表 3 所 示 : 


表 3 最 优 加 权 聚 类 方差 分 析 


模型 错误 
变量 F - 统计 数据 p 值 本 
平方 值 总 计 DF 平方 值 总 计 DF 

《7 所 有 博文 内 容 标准 偏差 12. 922 0.001 323 1.295 13 1.59 7 
CN 标签 标准 偏差 9.164 0. 002 703 1.529 13 2.109 7 
CK 二 数 标准 偏差 7.931 0. 004 951 0.926 6 13 2.004 gé 
人 SN 往 别 标准 偏差 7.115 0.005 113 0.283 7 13 1.14 入 
” 寂 赞 博文 内 容 标准 偏差 5.999 0.016 61 0.240 6 13 1.023 
= 关注 数 标准 偏差 2.575 0.043 58 0.372 13 2.008 了 
wo 币 博 认证 标准 偏差 1.03 0. 082 82 0.138 1 13 1.14 7 
邓 区 标准 偏差 1.018 0.097 24 0. 142 13 1.186 7 
性 介 标准 偏差 0.9467 0.102 5 0.187 3 13 1.681 7 
全 粉丝 数 标准 偏差 0.824 6 0.255 2 0.176 5 13 1.82 
CE 转发 数 标准 偏差 0. 822 0. 2636 0.113 6 13 1.175 7 
”职业 信息 标准 偏差 0.576 0.4759 0.1068 13 1.17 7 
三 训 攀 数 标准 偏差 0.288 3 0. 6662 0.070 98 13 1.026 7 
教育 信息 标准 偏差 0.241 0.788 5 0.045 86 13 1.617 7 


由 表 3 可 知 在 14 项 二 阶 变 量 中 ,对 于 模型 贡献 量 
最 大 的 是 发 博 内 容 这 一 变量 ,P 值 小 于 0.1 的 变量 有 8 
项 ,分 别 是 用 户 博 文 信息 维度 的 发 博 内 容 、 标 签 、 点 赞 
博文 内 容 ; 用 户 背 景 信息 维度 的 性 别 、 微 博 认 证 、 地 区 
和 用 户 行为 信息 的 微 博 数 和 关注 数 ,也 就 是 说 在 原先 
的 用 户 描 述 模型 中 ,这 8 个 二 阶 变量 对 于 用 户 描述 来 


一 般 以 0.01 作为 P 值 的 标准 ,P 值 小 于 0.01 即 可 认为 
该 变量 对 于 模型 是 完全 有 效 的 。 而 对 于 表 4 中 了 值 大 
于 0.01 的 二 阶 变量 ,在 用 户 描述 模型 中 可 以 考虑 删 去 
以 提高 模型 有 效 性 。 

4.3.2 用 户 多 维度 属性 描述 模型 改进 ”在 最 优 的 加 
权 条 件 下 ,通过 对 最 优 用 户 聚 类 进行 方差 分 析 ,考虑 到 


说 具有 概括 性 。 其 实践 意义 在 于 可 以 分 辨 出 二 阶 变 量 
对 于 用 户 向 量 表达 的 影响 力 力度 大 小 ,F 值 越 大 ,P 值 
越 小 ,表示 其 用 于 用 户 聚 类 的 作用 力 越 可 靠 ,也 就 是 说 
这 个 变量 的 存在 越 能 区 别 不 同类 的 用 户 。 例 如 ,二 阶 
变量 发 博 内 容 的 了 上 值 为 12.922,P 值 为 0.001 323 ,就 
说 明 有 1 -0.001 323 即 99.867 7% 的 把 握 认 为 用 该 变 
量 作为 区 分 用 户 的 变量 的 结论 是 正确 的 。 而 统计 学 中 
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二 阶 变量 简介 的 P 值 十 分 接近 于 0.01, 以 P=0.011 为 
标准 界限 ,对 于 了 值 小 于 0.11 的 二 阶 变量 予以 保留 ， 
对 于 P 值 大 于 0.11 的 二 阶 变量 予以 删除 ,在 考虑 到 最 
优 加 权 , 得 到 改进 后 的 基于 多 维度 属性 加 权 的 用 户 描 
述 模型 见 图 10。 
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F 一 Research on the Clustering of Microblog Users Based on Multi-dimensional 
C9 Attribute Weighting Analysis 


Zhang Haitao'” Tang Shiman: Wei Mingzhu: Li Zezhong': 
The Management College of Jilin University ,Changchun 130022 
“The Information Resource Research Center of Jilin University ,Changchun 130022 
Abstract: [Purpose/significance | Tt is of great significance for the study of social network information ecology and 
information recommendation to accurately grasp the interest tendency of social network users and classify users into highly 
aggregated user groups. [ Method/process | In this paper, by constructing the user attributes describe hierarchical model 
based on multi -dimensional , according to the model data requirements fetching user sample data from Sina microblog, 
quantify the secondorder variable based on the multi -dimensional property of the users ”background information ，users ” 
blog information and user behavior information to construct user vector expression, comparing the classification results 
based on single dimension and the multi -dimensional ，given different weights to attribute for weighted analysis, when a- 
chieve the optimal clustering results, based it do variance analysis to improve the model. [ Result/conclusion | User clus- 
tering effect based on the multi-dimensional attribute weighting is significantly better than the user clustering effect based 
on the single -dimensional and under the condition of the multidimensional unweighted, and users microblog content dimen- 
sion for improving the validity of user clustering effect is the largest. 


Keywords: microblogs multi-dimensional user-cluster weighted -analysis 
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